EVENTO
Metodologia de classificação de sequências de proteínas do fungo Metarhizium anisopliae utilizando técnicas de aprendizagem de máquina
Tipo de evento: Defesa de Dissertação de Mestrado
Metarhizium anisopliaeé um fungo entomopatogênico, utilizado como forma optativa no controle de população de pragas. Os fatores que participam do processo de infecção são considerados determinantes na virulência do fungo, porém o entendimento das interações entre fungos entomopatogênicos e seus hospedeiros, assim como interações associadas a este processo são desconhecidos. A complexidade biológica das interações entre o fungo e seus hospedeiros envolve muitos genes e moléculas neste contexto, ferramentas computacionais que suportam uma grande quantidade de dados, podem nos auxiliar a entender parte deste fenômeno. As ubiquitinas são proteínas pequenas, globulares e conservadas em eucariotos que estão envolvidas em quase todos os processos celulares, como em funções do controle celular, sinalização intracelular, progressão do ciclo celular, reparo no DNA, regulação transcricional, degradação e/ou reparo de proteínas. O objetivo deste trabalho é classificar o conjunto de sequências de proteínas do organismo Metarhizium anisopliae como potencialmente ubiquináveis ou não através de métodos de aprendizagem supervisionada e não supervisionada. Deste processo resultou uma metodologia de classificação mais eficiente, baseada em um menor número de parâmetros. O uso de métodos de aprendizagem de máquina vem conquistando espaço em pesquisas na área de bioinformática, por permitir a previsão e análise de similaridades por agrupamentos de uma grande quantidade de dados e com um alto grau de confiança. Em nosso trabalho, as técnicas de aprendizagem de máquina são aplicadas em todo o conjunto de proteínas do organismo Metarhizium anisopliae, utilizando apenas as informações das sequências e propriedades físico-químicas que são utilizadas como parâmetros. Inicialmente, o agrupamento hierárquico de 302 sequências de proteínas ubiquitinadas apresentou evidências de correlação entre algumas propriedades físico-químicas, indicando alguma redundância nestes parâmetros. Parâmetros redundantes podem causar modelo over-fitting. Assim, foi utilizado o algoritmo weightedvotingXvalidation de redução de dimensionalidade para determinar o conjunto de parâmetros que permite identificar se um peptídeo pode ser propenso a ubiquitinação ou não. Esta análise resultou na confirmação da redundância tendo sido identificados 10 parâmetros cuja utilização resulta numa classificação tão acurada quanto ao utilizar 31 parâmetros. Esses resultados foram comprovados por análises de validação cruzada com os algoritmos votação ponderada por peso (WV) e Support Vector Machine (SVM) com a função Kernel radial. O uso de 10 parâmetros resultou em recall, precisão e acurácia de 67%, 65% e 66%, respectivamente, para SVM contra 65%, 55% e 47%, respectivamente, para WV. A utilização de 31 parâmetros resultou em 71%, 71% e 71%, respectivamente, para SVM contra 60%, 55% e 52%, respectivamente, para WV. Posteriormente, foi feita a classificação das sequências com a aplicação do algoritmo SVM treinado com os 10 parâmetros físico-químicos selecionados para procurar as proteínas propensas a ubiquitinação no proteoma de Metarhizium anisopliae (10.775 sequências). Este classificador previu 9.314 proteínas como sendo propensas à ubiquitinação e 1.317 como não ubiquitináveis.
Data Início: 14/03/2014 Hora: 14:00 Data Fim: 14/03/2014 Hora: 17:00
Local: LNCC - Laboratório Nacional de Computação Ciêntifica - Auditorio B
Aluno: Maria Fernanda Ribeiro Dias - Laboratório Nacional de Computação Científica - LNCC
Orientador: Luciane Prioli Ciapina - Laboratório Nacional de Computação Científica - LNCC Maurício Vieira Kritz - Laboratório Nacional de Computação Científica - LNCC Roney Santos Coimbra - FIOCRUZ / BH - FIOCRUZ/ BH
Participante Banca Examinadora: André da Motta Salles Barreto - GOOGLE - Luciane Prioli Ciapina - Laboratório Nacional de Computação Científica - LNCC Ronnie Cley de Oliveira Alves - VALE -